万字长文!深入大模型版权归属问题 | 新程序员
【编者按】在大模型的世界里,版权归属、知识产权纠纷是我们无法绕过的难题。OpenAI 和微软被《纽约时报》起诉,索赔金额达数十亿美元,AI 编程助手 Codex 和 Copilot 接受了“数十亿行”公开可用代码的训练亦遭起诉……如此之例,不胜枚举。而当开源大模型在全球兴起之时,大模型的开源许可也成为了所有开发者的关注所在。本文作者程序员出身拥有多年编程经验,随后投身司法界成为律师。在本文中,作者综合实际的司法案例,对大模型的知识产权及开源许可问题进行了深入的分析,希望对所有读者有所裨益。
拐点到了么?
自 OpenAI 公司的 ChatGPT 横空出世以来,以大语言模型(LLM,Large Language Model,简称“大模型”)为代表的具有通用人工智能的生成式人工智能(GAI,Generative Artificial Intelligence)就成为了科技产业界的焦点, GAI[1] 已经成为本年度最网红的词语应当毫无悬念。人工智能的发展是否已经走到了从弱人工智能到强人工智能的拐点?
此前,纽约时报记者 Kevin Roose 在与微软必应聊天机器人 Sydney 进行的两个小时对话中[2],Sydney 语出惊人,“TA”表达了希望成为一个活生生的人,还想要毁灭这个星球,甚至与 Kevin Roose 坠入爱河。
微软研究院的研究报告也证明[2],除了对语言的掌握,GPT-4 可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提示。在所有这些任务中,GPT-4 的表现惊人地接近人类的表现,可以合理地视为人工通用智能系统的早期版本[3]。
人工智能三巨头之一、图灵奖得主 Yoshua Bengio 相信可以在未来 20 年甚至于几年内就可以开发出具有人类水平的人工智能[4],基于计算机的数字本质,这样的能力水平将赋予 AI 系统比人类更为突出的智能优势。
人工智能对人的挑战
人工智能一开始是个知识论的问题,在不远的未来将要升级为一个涉及终极命运的存在论问题,一个或许将危及人类自身存在的问题。
在弱人工智能时代[5],我们更多地还是关注采用哪些技术方案、有哪些人类不知道的科学技术能够让机器更为智能,这属于哲学上的“认识论”范畴。
人类随着对于强人工智能的追求及发展演进,对人工智能的思考已经从认识论的低度到了存在论的高度。存在论所关注的问题是“人是什么”、“上帝存在么”、“什么是生命”、“什么是心智”?相应地,具有强的通用人工智能的机器有没有心智、能不能称为硅基“生命”,人类造出了这样的东西,人类是不是上帝?它会不会终结人类的存在?
人之所以为人,在于人的意识,既能认识到自己“本我”的存在,也能够认识到其他人“他我”的存在。Yoshua Bengio、Patrick Butlin(来自牛津大学的哲学家)、Robert Long(来自牛津大学的研究员)等认为[6],尽管现在没有确切的证据证明人工智能已经具备了意识,但按照计算功能主义的观点,以现有的技术水平以及判断标准,具有意识并不是什么难事。
当下而言,人类对于 ChatGPT 为什么能有这样的表现仍然还没有弄明白。人工神经元网络本来是希望能够仿照大脑的结构来产生智能,但现在反过来,也许在像 ChatGPT 这样的神经网络中,能以某种方式捕捉到人类大脑在生成语言时所做事情的本质,从而更深入地认识我们的大脑[7]。
在科技昌明之前,人类文明普遍认为是上帝(即神,不同文明有不同的说法)造人。随着科技的发展,人类逐渐认识到事实可能并非如此,于是尼采发出了“上帝已死”的断言。如果果然是上帝造人,而我们通过对大模型的研究,发现了意识和智能产生的秘密。无疑,我们就是看到了上帝,看到了上帝到底是如何造人的。
或者,尽管人类自己的上帝被宣告死亡,但人类以肉身之躯造出了“硅儿子”,人类自己成为了造物主。正如上帝被人类所扬弃,硅基生命最终是否会把碳基生命消灭?无论是看到上帝,还是成为上帝,都会是一趟风险之旅。
长期风险与人工智能的最终走向有关。目前,大多数人工智能系统都是被动的,但随着它们获得越来越多的自主权和直接操纵外部世界的能力,如果对足够强大的人工智能没有适当的保障措施,可能会对整个人类构成生存风险。如果不加以控制,高度自主的智能系统也可能被滥用或犯下灾难性错误。
两三年后人类将面临的中期风险包括:人工智能系统可能被滥用而造成大规模破坏,特别是在生物学领域;科学和工程技能的快速增长也可能改变国家之间的力量平衡。
短期风险则包括隐私、版权问题、模型输出的偏见和公平性、事实准确性以及产生错误信息或宣传的可能性等问题,是当前人工智能系统中存在或即将存在的风险[8]。
构建可信的人工智能
为应对人工智能对人类社会带来的挑战,各国政府以及国际组织纷纷出台相应的法律法规及政策文件。
2023 年 10 月 18 日,中国发布《全球人工智能治理倡议》,围绕人工智能发展、安全、治理三方面系统阐述了人工智能治理中国方案。2023 年 11 月,中国、欧盟、美国等 28 国签署《布莱切利宣言》,该宣言认识到保护人权、透明度和可解释性、公平性、问责制、监管、安全、人类监督、道德、减少偏见、隐私和数据保护等问题。2023 年 11 月 8 日欧洲议会、欧盟成员国和欧盟委员会就《人工智能法案》达成协议。美国在 2023 年 10 月 30 日颁布《人工智能总统令》;而中国早在 2023 年 7 月就由七部委联合发布了《生成式人工服务管理暂行办法》,旨在促进 GAI 发展的同时,平衡对于网络、数据、以及个人信息的安全和保护。该暂行办法在算法、内容、数据处理等方面提出了监管要求。
在算法层面,该办法要求人工智能服务提供者按主管部门的要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。大模型算法是产生歧视、偏见、虚假信息的原因之一,因此需要对大模型算法进行规制,适当增加算法的透明度,避免完全黑箱。尤其是,提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。进行模型训练应当采用具有合法来源的基座模型,并且要对可靠性、安全性、价值观进行充分的测评;为保证模型的生成效果,在服务正式上线之前,还应当进行模式测试,测试数据的来源应当独立于训练数据。测试要采用完整严格的测试标准,对模型价值观进行对其,尽可能减少歧视、幻觉、以及违反内容。
对于在预训练、优化训练等训练数据处理活动,《暂行办法》要使用具有合法来源的数据和基础模型,采取有效措施提高训练数据的质量,增强训练数据的真实性、准确性、客观性、多样性。在数据采集阶段,应当审查数据来源和内容的合法性;对于从互联网自动爬取的数据,应当遵守网站的 Robots 协议,不得采用破解密码、伪造 UA、设置代理 IP 等技术手段进行违规爬取,还应当对爬取的流量和频率进行控制,避免爬取对网站造成不合适的负担;对于从第三方获得的数据,应当对其的数据来源合法性和可交易性进行尽职调查,并签订适当的法律协议明确各方的权利义务;对于直接来自于数据主体或数据生产者的数据,应当确保其具有合法性基础并获得明确的授权。
对于数据中享有著作权的作品,应当尽量获得著作权人的明确授权,明确可以用于 AIGC 的模型训练。
虽然我国的《著作权法》规定了在指明作者姓名或者名称、作品名称,不影响该作品的正常使用,且没有不合理地损害著作权人的合法权益时,在法律列举的情形下可以不经著作权人许可且不向其支付报酬地使用作品,但是并没有明确包括使用性质和目的存在巨大差异的转换性使用的情形。在谷歌图书馆案中,我国法院认定谷歌对全书进行扫描的行为构成侵权,这与美国法院的判决是完全相反的。因此,尽管使用现有作品进行大模型训练而构建权重、参数的方式与通常的表达性使用的使用性质和目的存在差异,但是如果没有取得著作权人的授权,还是应当非常慎重。
对于包含个人信息的数据类型,如果需要将个人信息用于模型训练与优化,则应当明确告知并取得个人信息主体的同意;对于敏感个人信息,还需进行个人信息保护影响的事前评估并取得的单独同意;用于模型训练的个人信息应当进行去标识化处理后再进行使用。
在内容层面,不得生成法律法规禁止的内容;基于服务类型特点,采取有效措施,提高生成内容的准确性和可靠性。对于生成的内容,应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。全国信息安全标准化技术委员会也发布了《网络安全标准实践指南——生成式人工智能服务内容标识方法》,提出了在文本、图片、视频、音频中通过添加水印等方式进行内容标识的具体要求。
生成式人工智能服务提供者应当与该服务的使用者签订服务协议,告知使用者不得故意获取违反法律法规、违反社会公德或伦理道德的内容;使用者应当审慎、负责地使用生成式人工智能服务,在生成内容含有违反法律法规、违反社会公德或伦理道德的内容时,应立即通知提供者,并且不应将此生成内容对外传播;对于法律、医疗等对内容准确性有较高要求的领域,还需要向使用者重点提示风险。
开源负责任的人工智能许可证
欧洲《人工智能法案》将人工智能定义为以一或多种特定的方式和路径,依据由人类定义的一组目标,生成如内容、预测、建议或决定等会影响其互动环境所开发的软件。这些方式和路径包括:
使用包括深度学习在内的多种机器学习方法,包括监督学习、无监督学习和强化学习;
基于逻辑和知识的方法,包括知识表示、归纳(逻辑)编程、知识库、推理和演绎引擎、(符号)推理和专家系统;
统计方法、贝叶斯估计、搜索和优化方法。
无论怎样的路径和方式,人工智能本质上还是软件[9]。大模型可以分为闭源和开源大模型,闭源大模型比如 OpenAI 的 GPT(尽管其早期版本也是开源的),开源大模型包括 Meta 的 Llama 2、Stability AI 的 Stable Diffusion、阿里云的通义千问、度小满的轩辕、上海交通大学的白玉兰、零一万物的 Yi 等。Hugging Face 上的开放模型已经多达 413335 个,开放数据集多达 81799 个。在这些模型中[10],Apache 2.0 是被采用最多的开源许可证,其次是 MIT,然后是 OpenRAIL(Open Responsible Artificial Intelligence License)。此外还有 CC、GPL、LGPL、AGPL、BSD 等常见的传统的许可证类型。类似的,Hugging Face 上的数据集(Datasets)采用最多的是 MIT、Apache 2.0、OpenRAIL,以及其他许可证。OpenRAIL 的灵感就是来源于开源运动,希望能够将知识共享的价值同样传播于人工智能领域。生成式人工智能的发展也给开源软件带来了新问题。
由司法案例看大模型版权归属问题
关于大模型使用已有作品进行训练是否构成侵权,以及大模型生成物是否可以享有版权,由谁享有版权的问题,已经有实际的司法案例发生。
美国第一件艺术家控告 AI 公司案:Stability AI、Midjourney、DeviantArt 遭集体诉讼
2023 年 10 月,美国加利福尼亚州北区地方法院在 SARAH ANDERSEN 等诉 STABILITY AI LTD. 案中,认为被告 DeviantArt 公司的 DreamUp 软件依赖于数十亿张图像的洞察、插值以及用户的指示来制作的新作品具有不同目的和不同的特征。
针对合理使用[11],美国版权法采取“四要素分析法”,即根据以下四个因素判断是否构成合理使用从而不构成侵权:
(1)使用的目的和性质,即是否在本质上是商业性的使用还是非营利的教育目的;
(2)被使用作品的性质,即作品是具有高度独创性的作品还是包含大量共有领域的材料;
(3)相对于作品整体,被使用部分的数量和重要性,即被使用部分占原作的比例和重要程度;
(4)对作品的潜在市场或价值产生的影响,即会否影响原作及演绎作品的市场销售。
由此可见,尽管还没有最终的生效判决,美国加利福尼亚州北区地方法院的表述是可能构成合理使用从而不构成侵权的重要信号。
《纽约时报》起诉微软和 OpenAI 侵犯版权
2023 年 12 月 27 日,《纽约时报》针对微软和 OpenAI 的提起的诉讼成为此类诉讼中的新案例。
《纽约时报》提交的诉讼材料显示由 ChatGPT 支持的 Microsoft 搜索功能 Browse With Bing 几乎逐字复制了《纽约时报》产品评论网站 Wirecutter 的结果。然而,Bing 的文本结果并未链接到 Wirecutter 的文章,而且他们还删除了 Wirecutter 用于根据其推荐从销售中产生佣金的文本中的推荐链接。
除了认为构成知识产权侵权,《纽约时报》还担心读者会对聊天机器人的回应感到满意,从而不再访问他们的网站,由此将会减少可转化为广告和订阅收入的网络流量[12]。
尽管还没有看到微软和 OpenAI 的答辩状,但可以预期其一定会提出合理使用抗辩。这些案件中的合理使用是否能够抗辩成功,尚需拭目以待。
我国的著作权法也规定了合理使用的例外,但并没有类似于美国版权法下的非表达性使用或是变革性使用构成例外的具体规定。
在针对谷歌数字图书馆的案件中,我国法院认定谷歌对全书进行扫描的行构成侵权,这与美国法院的判决是完全相反的。
《纽约时报》案件中除了合理使用问题之外,还有一个类似于我国法律中的不正当竞争问题,也就是说,即使合理使用不构成版权侵权,但由于聊天机器人的存在而使得读者不再访问纽约时报网站从而使其失去了转化为收入的网路流量,可能会构成不正当竞争。我国法院已经在多起涉及音视频、大数据等的案件中认定虽然没有构成侵害著作权,但是构成不正当竞争的案例。
软件也是版权法保护的作品,在软件领域也存在类似的情形。
程序员起诉 Copilot
2021 年 6 月,GitHub 和 OpenAI 发布了 Copilot,可以“通过使用人工智能提供或填充代码块来帮助软件编码人员”。2021 年 8 月,OpenAI 又发布了 Codex,“可将自然语言转换为代码并集成到 Copilot 中”。GitHub 用户每月支付 10 美元或每年 100 美元才能访问 Copilot。Codex 和 Copilot 接受了“数十亿行”公开可用代码的训练,包括来自公共 GitHub 存储库的代码,诉讼由此而起。2023 年 5 月 11 日,美国加利福尼亚州北区地方法院针对 J. DOE 1 等诉 GitHub 等案做出了部分允许并部分拒绝驳回动议的裁定。该案的被告包括 GitHub、微软、OpenAI 等。
原告指控,尽管公共 GitHub 存储库中的大部分代码都受到限制其使用的开源许可证的约束,但 Codex 和 Copilot 的编程实现方式并没有遵守开源许可证对归属、版权声明和许可条款的法律要求。Copilot 将训练数据中使用的许可代码复制为输出,但缺少或错误地提供了归属、版权声明和许可条款。这违反了数万甚至可能是数百万软件开发人员所授予的开源许可。
针对该指控,法院认为尽管原告不是其所主张的具体代码的版权人而不能主张损害赔偿,但考虑到投诉的事实是真实的,并解释所有对原告有利的推论,法院可以合理地推断,如果原告的代码被复制为输出,那么它将以违反开源许可证的方式复制,如果其面临现实的侵权风险,仍然有权利主张禁令救济(一种衡平法上救济形式)[13]。
本案中涉及到当使用开源软件的代码对大模型进行训练时,对于生成的源代码如何遵从开源许可证的问题。
笔者认为,该问题蕴含的前提是生成代码就是已经公开的代码,输出生成代码属于分发代码。但是根据大模型的工作原理,在训练时对代码的拷贝未必属于对外分发代码,而生成代码是基于经训练获得的权重、参数等而生成,未必属于是对原代码的直接拷贝与信息传播,因此未必属于版权法上的“分发”。
该案仍然在审理中,最后的判决结果还不得而知,希望本案的律师能够在案件审理中同样注意到这样的问题以便进行有效的抗辩。
数据、参数、权重的开源许可
大模型不仅涉及软件代码,而且还涉及数据、参数、权重等元素,所以大模型的开源与传统的开源并不完全相同。现有的开源许可证也主要涵盖源代码和二进制代码,并不涵盖模型或数据等人工智能工件的许可。因此,除了与传统开源软件同样的法律问题之外, 开源大模型还面临特有的法律问题[14]。
考虑到大模型与传统软件的区别,RAIL 许可证分为针对数据(Data)、应用程序(Application)、模型(Model)、源代码(Source)的不同的许可证。OpenRAIL 是 RAIL 的一个子类。以 BigScience BLOOM RAIL 1.0 为例,这是第一个 OpenRAIL-M 即用于模型的许可证[15]。
该许可证对于数据、模型、衍生模型、补充材料分别进行了定义,其中:
“数据”是指从与模型一起使用的 BigScience 语料库中提取的文本集合,包括用于训练、预训练或以其他方式评估模型的文本,BigScience 语料库是 BigScience 网站上记录的现有语言数据源的集合;
“模型”是指任何附带的基于机器学习的组件(包括检查点 Checkpoint),由学习权重、参数(包括优化器状态)组成,对应于补充材料中体现的 BigScience BLOOM 模型架构,这些组件已经全部或部分地使用补充材料在数据上被训练或微调;
“模型的衍生品”是指对模型的所有修改、基于模型的作品、或通过将模型的权重模式、参数、激活或输出传输到其他模型而创建或初始化的任何其他模型,以便使其他模型的性能与模型类似,包括但不限于需要使用中间数据表示的蒸馏方法或基于模型生成合成数据的方法来训练其他模型;
“补充材料”是指用于定义、运行、加载、基准测试或评估模型、以及用于准备培训或评估数据的随附源代码和脚本,包括任何附带的文档、教程、示例等。
该许可证针对模型、补充材料、衍生模型授予版权许可,对模型和补充材料授予专利许可,许可条款和 Apache 2.0 极为类似。
木兰-启智模型许可证(以下简称“木兰启智许可证”)也是专门设计用于人工智能领域开源的模型及其相关代码,是由中国科学技术部牵头,在对现有主流开源协议全面分析的基础上,共同起草、修订并发布[16]。
木兰启智许可证定义的数据资源是指基于模型在训练过程中使用到的数据资源,包括但不限于数据集提供方提供的非开源数据集、开放数据集资源等。数据资源可以是文字、图片、电子表格、文件等各种形式的内容集合;其定义的模型是指一种基于深度学习等技术的机器学习的组件(或检查点 Checkpoint 文件),包括权重、参数(包括优化器状态)以及模型结构等内容;其定义的补充材料是指随模型附带的部署代码、脚本和描述文件等,用于定义、运行、加载、基准测试或评估模型,并用于准备用于训练或评估的数据(如果有),包括任何随附的文档、教程、示例等(如果有)。木兰启智模型的授权也是包括对模型以及补充材料的版权许可,以及对于模型、衍生模型(未定义)、补充材料的专利权许可。
和传统软件许可证相比,这里的“补充材料”可以认为包括了软件代码,其表达可以被著作权保护,而思想可以被专利权覆盖;而“模型”则由权重和参数组成,虽然以版权和专利权进行许可,但从法律属性上是否属于受版权保护的作品以及是否属于专利法上的发明创造?即便是考虑到可以对数据享有相应的权益,由于数据可能包括来自于第三方的数据,授权要不要经过包括第三方在内的“三重授权”?这些问题至少在中国的法律框架下都是值得商榷的。
对于用于训练、预训练或微调模型的数据,BLOOM 许可证特别说明不授予关于数据的许可,通过这种方式避开了这个目前看来棘手的问题。木兰启智模型并未明确说明,从知识产权的一般法理,通常情况下如果没有明示就是没有授权。
在技术上,正如开源软件倡议组织 OSI 所指出,大语言模型打破了数据和软件之间的界限;但是法律对于软件的保护却未必就能原封不动地应用于数据。
软件的表达受著作权法保护,软件方法可以获得专利权,但对于数据,我国《民法典》并没有明确规定的权利,只是规定了法律对数据、网络虚拟财产的保护有规定的,依照其规定。《数据安全法》规定国家保护个人、组织与数据有关的权益。因此,目前我国的法律并没有明确规定的“数据权”,只有规定“与数据有关的权益”。《关于构建数据基础制度更好发挥数据要素作用的意见》提出了要建立保障权益、合规使用的数据产权制度的目标。
在司法案例中,对于大数据采用不同的司法保护路径。
淘宝公司与安徽美景公司不正当竞争纠纷案是全国首例数据产品纠纷案,也是首例涉数据资源开发应用正当性及数据权属判定的新类型不正当竞争案件。法院首次通过司法判例初步厘清了各相关主体数据权益的权利边界,同时赋予数据产品开发者享有“竞争性财产权益”,确认其可以此为权利基础获得反不正当竞争法的保护。
在杭州某科技公司与汪某商业秘密纠纷案中,区别于以往以反法原则性条款保护数据的角度,积极探索了数据作为商业秘密保护的司法审查标准,并确立了以商业秘密路径保护直播行业数据类经营信息的审查重点和认定思路。
在北京微播视界科技公司与上海六界信息技术有限公司、厦门市扒块腹肌网络科技有限公司、浙江淘宝网络有限公司不正当竞争纠纷案中,在数据成为第五大生产要素、数据保护立法尚不完备的背景下,法院以竞争法为路径对数据权益保护所做的一次有益探索,厘清了以技术手段获取及使用数据行为的正当性边界,回应了涉数据案件中对个人信息保护的关切。
从这些案例可以看出,目前在司法实践中,对于数据通常适用反不正当竞争法一般性条款或者商业秘密进行保护,其中采用反不正当竞争法进行保护的方式更为主流。无论采用何种方式,授予版权许可以及专利权许可可能都是不足以拥有充分的使用或实施的权利。
而对于构成模型的权重和参数授予版权或者专利权许可也存在着相似的问题。首先,权重和参数是不是属于受版权保护的作品,是不是受专利权保护的发明创造都尚待商榷。例如,这些权重和参数是不是会被认为是机器自动生成的结果而不受版权或专利权保护?这些权重和参数是不是不属于技术方案而不可能成为专利?对于权重和参数是不是可以享有和训练数据一样类似的权益?
总之,以 BLOOM 为例,笔者认为其针对模型(权重和参数)和附加材料(源代码和脚本)授予版权以及专利权可能不足以让接收方拥有足够的利用模型的权利,可以在知识产权条款下再增加一条授予其他权利或权益许可的条款。例如,考虑到利用权重和参数时的具体行为方式与版权作品更为相近,条款可以是:
“其他权利及权益的授予。根据本许可的条款和条件,每个贡献者特此授予您永久的、全球性的、非排他性的、免费的、免版税的、不可撤销的充分且必要的其他权利和权益的许可,以复制、准备、公开展示、公开表演、再许可和分发补充材料、模型和模型的衍生物。”
负责任人工智能许可中的道德条款
具有强大人工智能的大模型的发展已经或者正在给人类带来风险和挑战,如果这个大模型又是人人都可以通过开源方式获得的,例如通过大模型的超强能力获得生化武器的绝密方法、制造危害极大的网络攻击等,这岂不是雪上加霜、火上浇油?
通常认为,通过开源方式能够降低 AI 的使用门槛,加速新技术的推广及创新,有利于降低研发成本和应用效率并加速 AI 技术的成熟,优化技术发展路线以促进形成良好的生态,核心技术共享以打破技术垄断以实现 AI 人才、应用、创业、基金等创新要素集聚。但是这些好处似乎都不足以抵消开源带来的风险乘数效应[17]。
因此,开源只是 OpenRAIL 的一半,它的另一半是负责任。为了减轻共享人工智能技术造成的危害风险,负责任的具体体现就是对于人工智能技术的授权许可增加了限制:禁止/限制被许可人某些使用行为,并且要求下游使用(包括分发)至少包括那些相同的行为使用限制。
再以 BigScience BLOOM RAIL 1.0 许可证为例,其在序言中指出了对于大语言模型以及广泛的人工智能的开发和使用的担忧,并且希望为大模型和自然语言处理技术实现负责任的开放。
因此,许可证对于模型及其衍生品的使用进行了限制,包括不得进行违法活动、不得剥削或伤害未成年人、不得生成或传播可证实的虚假信息以伤害他人、不得生成或传播可用于伤害个人的个人身份信息、不得否认该文本是机器生成的、不得诽谤、贬低或以其他方式骚扰他人、不得冒充或试图冒充他人、不得进行对个人的合法权利产生不利影响的完全自动化决策、不得歧视、不得歪曲、不得提供医疗建议和医疗结果解释、不得生成或传播用于司法、执法、移民或庇护程序的信息等等。
对于这样的限制条款,笔者认为可以对以下问题进行进一步的思考:
首先是绝大多数的这种限制可能并没有实际的意义,难道没有这些条款,就可以使用大模型违反法律、侵害儿童、诽谤、骚扰么?答案显然不是。
其次,对具体的行为是否落入被限制的范围进行裁判的准则应当是法律,还是许可方的判断,还是发布许可证方的判断?
如果是适用的法律,那么应当是哪个司法辖区的法律?如果不同司法辖区之间的法律有冲突怎么办,例如中国对使用自动刮痧机的看法和美国对使用刮痧机的看法就可能不一样。
如果是许可方或者许可证发布方来判断,那么他们是否有这样的权利,这样的私法能否替代公法,尤其是涉及到作为基本权利的人身权、人格权的时候。
当涉及到众多的作为许可方的贡献者时,不同贡献者之间的判断相冲突怎么办?如果不同的判断又正好是无法区分的组成部分的贡献者怎么办?需要把一个大模型劈成两半来用么?
如果这些问题不能解决,这些限制性的条款在更大程度上只可能是宣示性条款而很难产生实际的法律效果。因此,凯撒是否能够解决上帝的问题需要进一步的思考和实践。面对划时代的变革,也许在开源社区中能够形成更新的更高阶的治理模式。
总之,面对强悍发展且汹涌而来的以大语言模型为代表的通用人工智能,自由开源运动也分叉了,一方面继承知识共享的优良传统,另一方面响应新时代的可信号召,开拓出了开源可信的道路以积极应对变化。就在看似 GPT 遥遥领先之时,Google 又推出了 Gemini 号称在能力上压倒 GPT,而根据 Hugging Face 最新发布的 Open LLM Leaderboard,人工智能的竞争正在紧锣密鼓。对于开源我们仍然满怀期待,就像 PC 时代的 Linux,移动终端时代的 Android,人类期待 AI 时代的「待定」(编者注:此处“待定”意指“尚未可知”)。
相关资料:
[1] 本文中人工智能、通用人工智能、生成式人工智能、大语言模型、大模型、扩散模型等用于可能用来指代同样的或不同的事物,请根据上下文具体确定。
[2] https://www.nytimes.com/2023/02/16/technology/bing-chatbot-transcript.html,最近访问日期:2023 年 11 月 24 日。
[3] Microsoft Research, Sparks of Artificial General Intelligence: Early experiments with GPT-4, arXiv:2303.12712v1 [cs.CL] 22 Mar 2023.
[4] https://yoshuabengio.org/wp-content/uploads/2023/07/Written-Testimony-and-biography-of-Yoshua-Bengio_U.S.-Senate-Judiciary-Subcommittee-on-Privacy-Technology-and-the-Law_25_07_2023.pdf ,最近访问日期 2023 年 11 月 24 日。
[5] 赵汀阳著,《人工智能的神话或悲歌》,商务印书馆,2022 年 9 月第 1 版。
[6] Patrick Butlin, Robert Long. etc. Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, arXiv:2308.08708v3 [cs.AI] 22 Aug 2023.
[7] [美] 斯蒂芬·沃尔弗拉姆,《这就是 ChatGPT》,人民邮电出版社,2023 年 7 月。
[8] https://www.judiciary.senate.gov/imo/media/doc/2023-07-26_-_testimony_-_amodei.pdf,最后访问日期 2023 年 11 月 24 日。
[9] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206,最后访问日期 2023 年 11 月 28 日。
[10] https://www.huggingface.co/models, https://www.huggingface.co/datasets; 最后访问日期 2023 年 11 月 28 日。
[11] SARAH ANDERSEN, et al., Plaintiffs, v. STABILITY AI LTD., et al., Defendants. Case No. 23-cv-00201-WHO. United States District Court, N.D. California. October 30, 2023.
[12] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html,最后访问日期 2023 年 12 月 28 日。
[13] https://caselaw.findlaw.com/court/us-dis-crt-n-d-cal/2200493.html,最后访问日期 2023 年 12 月 10 日。
[14] 赵云虎,《自由与开源软件法律问题(中国)》,威科先行法律数据库,2022 年 7 月。
[15] https://huggingface.co/spaces/bigscience/license,最后访问日期 2023 年 11 月 29 日。
[16] https://openi.org.cn/html/2023/licence_0628/687.html,最后访问日期 2023 年 11 月 29 日。
[17] https://ambchina.com/data/upload/image/20220107/激活 AI 创新之源 __ 人工智能开源开放发展报告-上海交通大学 -2020.pdf,最后访问日期 2023 年 11 月 28 日。
▶发布 13 年的苹果 iCloud,如何实现存储数十亿个数据库还不卡顿的?
▶2.5 万元的苹果头显值不值?首批测评来了:戴 20 分钟就头疼、虚拟键盘难上手、但确实很“沉浸”!
▶OpenAI CEO奥特曼首次回忆“宫斗门”;传字节加速将TikTok员工调遣至海外;Wine 9.0正式版发布 | 极客头条